Der Variational Autoencoder (VAE) ist eine künstliche neuronale Netzwerkarchitektur. Im Gegensatz zum einfachen Autoencoder ist er in der Lage, neue Inhalte zu erzeugen. Der generative KI-Algorithmus lernt un- beziehungsweise selbstüberwacht, die Dimensionen der Eingabedaten zu reduzieren. Er verwendet als interne Repräsentation eine Parametrisierung einer Wahrscheinlichkeitsverteilung. Aus Stichproben dieser Verteilung im latenten Raum kann der VAE neue Inhalte generieren.
Die Abkürzung für Variational Autoencoder ist VAE. Der Variational Autoencoder ist eine vom Autoencoder inspirierte Architektur eines künstlichen neuronalen Netzwerks. Im Gegensatz zum einfachen Autoencoder handelt es sich beim Variational Autoencoder aber um einen KI-Algorithmus mit generativen Fähigkeiten, der neue Inhalte erzeugen kann.
Veröffentlicht wurde der VAE von Diederik P. Kingma und Max Welling in einem Paper mit dem Titel „Auto-Encoding Variational Bayes“ im Jahr 2013. Wie der Autoencoder lernt der VAE die Dimensionen der Eingabedaten zu reduzieren. Er schafft eine interne Repräsentation der Eingabedaten in Form einer Wahrscheinlichkeitsverteilung. Nach dem un- beziehungsweise selbstüberwachten Training ist der VAE in der Lage, aus Stichproben der Wahrscheinlichkeitsverteilung im latenten Raum auch neue Inhalte wie Texte, Bilder oder Videos zu generieren.
In ihrer Veröffentlichung zeigen Diederik P. Kingma und Max Welling, wie sich der KI-Algorithmus einsetzen lässt, um beispielsweise realistisch aussehende neue Gesichter oder handgeschriebene Ziffern zu generieren. Mittlerweile existieren zahlreiche Weiterentwicklungen des ursprünglichen Algorithmus mit verbesserter Leistung. Auch wenn in aktuellen generativen KI-Modellen neuere Architekturen und Algorithmen wie Transformer, GANs oder Diffusionsmodelle und andere zum Einsatz kommen, so ist die generelle Funktion des Variational Autoencoders in die Architektur vieler generativer KI-Modelle auf die ein oder andere Art und Weise mit eingeflossen.
Grundprinzip eines Autoencoders
Der VAE basiert auf dem Grundprinzip eines Autoencoders. Für ein besseres Verständnis des Variational Autoencoders wird zunächst die prinzipielle Funktionsweise des Autoencoders erklärt. Ein Autoencoder ist ein künstliches neuronales Netz, das lernt, die wesentlichen Merkmale der Eingabedaten zu extrahieren und eine komprimierte Repräsentation dieser Daten erstellen. In dieser Repräsentation sind die Dimensionen der Eingabedaten reduziert.
Im Wesentlichen besteht ein Autoencoder aus zwei Hauptkomponenten: einem Encoder und einem Decoder. Sie werden per selbst- beziehungsweise unüberwachtem Lernen trainiert. Vereinfacht dargestellt läuft das Training eines Autoencoders folgendermaßen ab: Ungelabelte Eingabedaten (Trainingsdaten) laufen durch den Encoder, der sie analysiert, die wichtigsten Informationen extrahiert und sie als Vektoren mit einer bestimmten Anzahl an Variablen im latenten Raum kodiert. Der Decoder versucht aus den Vektoren die ursprünglichen Daten wieder zu rekonstruieren. Die vom Decoder rekonstruierten Daten werden mit den Eingabedaten verglichen. Durch Backpropagation (Fehlerrückführung) werden die Parameter des neuronalen Netzwerks so lange optimiert, bis aus der dimensionsreduzierten Repräsentation eine den Eingabedaten möglichst ähnliche Rekonstruktion der Daten möglich ist. Der Lernvorgang läuft eigenständig und ohne menschliche Aufsicht ab.
Autoencoder lassen sich beispielsweise einsetzen, um Bilder zu klassifizieren, Rauschen aus Eingabedaten zu entfernen oder Daten auszufiltern wie eine Stimme oder ein Instrument aus einer Audioaufnahme.
Die Funktionsweise des Variational Autoencoders
Auch der Variational Autoencoder besteht aus den beiden Hauptkomponenten Encoder und Decoder, die gemeinsam trainiert werden. Der wesentliche Unterschied zwischen Autoencoder und VAE besteht darin, dass die dimensionsreduzierte Darstellung der Eingabedaten im latenten Raum nicht aus einer einfachen Vektordarstellung besteht, sondern auch eine Wahrscheinlichkeitsverteilung ist. Der Encoder liefert quasi zwei Vektoren: einen Mittelwert der latenten Raumverteilung und die Standardabweichung der latenten Raumverteilung. Im Gegensatz zu einem einfachen Autoencoder ist der VAE dadurch in der Lage, nicht nur die ursprünglichen Input-Daten zu rekonstruieren. Er kann aus bestimmten Stichproben der Wahrscheinlichkeitsverteilung einen neuen Vektor erzeugen und neue Inhalte generieren, indem dieser Vektor in den Decoder eingespeist wird.
Im latenten Raum lassen sich zudem arithmetische Berechnungen wie die Addition oder die Subtraktion von Vektoren durchführen. So kann aus den Repräsentationen zweier Eingabedaten eine neue Kombination dieser Daten erzeugt werden. Beispiel hierfür ist das Verschmelzen zweier Gesichter zu einem neuen Gesicht. Auch der Variational Autoencoder lernt selbst- beziehungsweise unüberwacht, indem er den rekonstruierten Output mit dem ursprünglichen Input vergleicht. Durch Anwendung eines sogenannten Reparametrisierungstricks werden die Parameter des neuronalen Netzes und die Gewichtungen der Neuronen über Backpropagation optimiert.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Typische Anwendungen des Variational Autoencoders
Der Variational Autoencoder lässt sich für verschiedene Anwendungen einsetzen. Beispiele für solche Anwendungen sind:
Entfernen von Rauschen oder Wasserzeichen aus Bildern, Videos oder Audiodaten
Generieren neuer Bilder wie neue Gesichter oder Personen
Erstellen von neuen Empfehlungen auf Basis des Nutzerverhaltens
Anomalieerkennung (zum Beispiel Erkennen von Finanzbetrug oder von außergewöhnlichem oder gefährlichem Netzwerkverkehr)
industrielle Qualitätskontrollen
Entwicklung neuer Materialien oder chemischer Verbindungen
zur Auswertung von CT- oder Kernspin-Bildern oder zur Entwicklung personalisierter Medikamente